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Стенограмма доклада А.Н. Колмогорова 
“Понятие “информация” и основы теории 
вероятностей? * 


Я не без сомнения взялся выступить на этот раз, так как я 
уже на эту тему выступал в довольно широкой аудитории, а 
ничего особенно нового не могу сказать. 

Я хотел бы слушателей, которые желают узнать об этих 
вещах более подробно, отослать к первому номеру журнала 
“Проблемы передачи информации”, который скоро начнет вы- 
ходить — там, как раз, будет моя статья!, посвященная общим 
вопросам, связанным с определением понятия “информация” и 
развитием теории вероятностей. 

Сегодня же я хочу начать с более старых вещей. 

Теория вероятностей имеет многовековую историю - тео- 
рия информации появилась сравнительно недавно. Само поня- 
тие “вероятность” формировалось постепенно и еще в недав- 
нее время вызывало большие споры. И моя личная точка зре- 
ния состоит в том, что, как раз, теория информации, вместе с 
некоторыми построениями математической логики, возможно, 
сможет этот спор, в значительной степени, завершить. При- 
чем, завершить парадоксальным образом: не теория информа- 


*Стенограмма, сохранившаяся в домашнем архиве А.Н. Колмогорова, 
представляет собой машинописный текст на двадцати девяти страницах, 
плюс восемь страниц записанных вопросов слушателей и ответов на них 
(публикуются здесь же). В тексте имеется незначительная правка и вста- 
влены некоторые формулы от руки, но почерк не принадлежит Андрею 
Николаевичу. Остается только догадываться, кому он мог поручить вне- 
сти такую правку и проверял ли текст после ее внесения. Мы здесь печа- 
таем текст, учитывая эту правку, но не указывая на нее в каждом случае. 
От себя мы при этом не вносим практически никаких изменений (если не 
считать исправление допущенных опечаток и других очевидных огрехов 
стенографистки, а затем - машинистки). - Ред. 

Речь идет о статье “Три подхода к определению понятия «количество 
информации»” (Проблемы передачи информации. - 1965. - Т. 1, вып. 1. - 
С. 3-11). - Ред. 
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ции будет опираться па теорию вероятностей, а из многих по- 
ложений теории информации, не требующих предварительного 
развития ее понятий, будут выводиться основные понятия те- 
ории вероятностей. 

Мне хотелось бы это аргументировать, для начала, самыми 
простыми общими соображениями. Мы обычно противопола- 
гаем случайное закономерному. Что при этом видится в “слу- 
чайном”? - Это нечто, в чем нельзя найти ничего закономер- 
ного. Но представим себе, что дело идет просто о написанных 
на, доске цифрах: 


0,0, 1,1,0,1,1,1, и так далее... 


Вы, может быть, знаете, что существуют таблицы случай- 
ных чисел, которыми пользуются довольно широко, в частно- 
сти, в прикладной статистике. По старой традиции, кое-что 
в вычислительной технике еще делается на основе десятичной 
системы, а вообще-то, система должна быть двоичной - дат- 
чики выдают нули и единицы. 

Что значит, что в такой длинной таблице (случайных чи- 
сел) нет ничего закономерного, если эта, таблица -— конечная? 
Ее все-таки можно описать. И естественно понимать это та- 
ким образом, что здесь нет простого закона, что всякий закон, 
который ее описывает, достаточно сложен. А что значит “сло- 
жен”? Это значит, что он не допускает короткой записи. И в 
той концепции, которую я сейчас разрабатываю (вы об этом 
можете прочесть в той статье, о которой я сказал вначале, а 
также в статье в “Успехах математических наук”?) содержит- 
ся предлагаемый сейчас в упрощенном виде, лишенном всяких 
технических сложностей, подход к теории вероятностей. 

За исходную точку при таком подходе берется запись за- 
кона, расположения элементов (нулей и единиц) в приведенной 


По-видимому, имеется в виду статья “Комбинаторные основания те- 
ории информации и исчисления вероятностей”, увидевшая свет только в 
1983 году (УМН. - 1983. - Т. 38, вып. 4. - С. 27-36). - Ред. 
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выше последовательности, а именно вопрос: можно ли запи- 
сать такой закон более сжато? Но надо также выяснить, что 
значит “записать более сжато”. 

Так вот, при этом, собственно говоря, вполне естественно 
начинать с теории информации, которая и изучает вопрос о 
том, какие сообщения, как говорят в теории информации (или 
какие последовательности), насколько сжато можно записать, 
и нельзя ли их выразить более коротким способом. 


Однако развитие теории вероятностей шло другими путя- 
ми. Теория информации не существовала как наука, вызыва- 
ющая всеобщее внимание и интерес, и вообще, как самостоя- 
тельная наука. Первые попытки определить само понятие “ве- 
роятность”, были предприняты, так сказать, совсем с другого 
конца. 

В первую очередь, был подмечен своеобразный характер 
явлений, обладающих известной “симметрией” (в азартных 
играх, опытах с бросаниями монеты и проч.) Ничего не подела- 
ешь, такая практика была — это смущает иногда методистов, 
когда мы призываем рассказывать о теории вероятностей в 
средней школе. Но в действительности, именно здесь можно 
было заранее, до опыта, определить ожидаемое числовое зна- 
чение вероятности. 

Если взять куб, сделанный из достаточно однородного ма- 
териала, то, в силу того, что нет никаких причин, по которым 
бы он падал на какую-то одну, а не на любую другую сторону, 
мы будем считать, что при многократном бросании он будет 
одинаково часто падать на каждую из сторон. Тем не менее, 
эксперимент, который с бросанием игральной кости реально 
неоднократно производился, дает не только этот тривиальный 
результат. При большом числе № бросаний частота выпаде- 
ния каждой из граней (т.е. число появлений каждой из граней 
пи, т2,..., Те, деленное на №) будет близка к 1/6. Здесь име- 
ется некоторая устойчивость. То, что эта устойчивость будет 
вблизи 1/6, можно было предвидеть. А вот то, что фактические 
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отклонения от этого числа будут небольшими, что достаточ- 
но длинные “серии” будут давать отношения, близкие к 1/6, 
долго оставалось результатом опыта, наблюдений. И лишь 
гораздо позднее было обнаружено, что такая устойчивость ча- 
стот присуща, целому ряду явлений, где, а ргтогу, нельзя было 
подсмотреть, вокруг чего, вокруг какого числа, такие частоты 
должны группироваться. 

Еще в ХХ веке вызвало большое удивление и бурное обсу- 
ждение наблюдение, что число писем без адреса, опущенных 
в почтовые ящики, более или менее постоянно в каждый по- 
недельник, вторник...., субботу. Эта устойчивость частот слу- 
чайных явлений в ХХ веке казалась удивительной. Но там, где 
сами вероятности (числа, вокруг которых эти частоты группи- 
руются) можно было предусмотреть заранее, понятием “веро- 
ятность” пользовались гораздо раньше. Исходя из этих, “клас- 
сических” подходов, Лаплас, например, считал, что основопо- 
лагающим в теории вероятностей является понятие равновоз- 
можности. Потом уже строились вероятности. Например, ве- 
роятность выпадения на, одной кости, скажем, нечетного числа, 
очков (т.е. единицы, тройки или пятерки) объявлялась как 3/6 
(т.е. число “нечетных” граней делили на число всех граней). 
Если костей будет 10, то в знаменателе появится число 610, по- 
тому что именно столько имеется в этом случае равновозмож- 
ных событий. Вероятность при таком знаменателе для любого 
отдельного события становится ничтожно мала. Когда, вероят- 
ность стали определять как отношение числа благоприятству- 
ющих исходов к общему числу равновозможных, и началось 
развитие математической теории вероятностей. 


Суровая и жестокая критика этих концепций началась до- 
вольно поздно. Рихард фон Мизес занимался такой критикой 
(уже в начале ХХ века) с большим азартом. Но та концепция, 
которую Мизес, в частности, желал привлечь на смену попу- 
лярному подходу, была все-таки непривлекательной во мно- 
гих отношениях. Это, так называемая, теория коллективов. 
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У нас, в Советском Союзе, она пользуется большой популяр- 
ностью среди физиков. В двадцатых годах наши математики 
(А.Я. Хинчин?, в частности) очень резко ее критиковали. Де- 
ло в том, что эта теория просто исходила, из постулирования 
устойчивости частот, а так как такая устойчивость все-таки 
не абсолютна (когда число испытаний невелико), то отноше- 
ние числа благоприятствующих исходов т к общему числу воз- 
можных исходов п может значительно отклоняться от предска- 
зуемого (в случае кости, от 1/6). Приблизительно, дело обстоит 
так, что отклонение практического результата от предсказы- 
ваемого теорией бывает порядка 1/\/п, и отсюда видно, что 
отклонение (7% /п — 1/6) в нашем случае убывает совсем не так 
быстро. 

В соответствии с Мизесовской концепцией, получалось так, 
что, по каким-то неведомым причинам, есть много явлений, у 
которых имеется такая “идеальная” константа, а если условия 
повторимы в принципе (подбрасывание кости, а может быть, 
более серьезное физическое явление), и если они действительно 
повторяются много раз, то при п -} со отношение т/п будет 
стремиться к соответствующему пределу. И та константа, ко- 
торая является таким пределом, и называется при этом веро- 
ятностью. | 

Здесь происходило смешение физических представлений и 
математических. Предельный переход не может быть основа- 
‘нием для понятия “вероятность”. Если бы сближение 
(т/п и р) было слишком медленным, то никто никогда, не смог 
бы его обнаружить. | 

Я нарочно остановился на таких простеньких примерах. 
Однако реальному эксперименту - ни наивному, ни серьезно- 
му, научному - такая концепция не соответствует. Скажем, в 
‘применении к кубу (кость, как мы помним, имеет форму куба) 
такие эксперименты устраивались многократно. Досужие лю- 


3Хинчин Александр Яковлевич (1894-1959) математик, член-корр. АН 
СССР, ученик Н.Н. Лузина. - Ред. 
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ди бросали в старое время кость 16 000 раз и смотрели, сколько 
раз что выпадает. И в более серьезных экспериментах, скажем, 
с числом меченых частиц при радиоактивном распаде, устраи- 
вались всякие опыты по проверке вероятностных соотношений. 

Но если вы возьмете кость в виде октаэдра (насколько я 
знаю, никто никогда не вытачивал кость формы октаэдра, т.е. 
8-гранника), то каждый разумный человек будет убежден, что 
если 80000 раз бросить такую фигурку по честным правилам, 
то примерно по 10000 случаев выпадений придется на каждую 
из сторон. Получается, что одного соображения симметрии до- 
статочно для того, чтобы предсказывать, что должно полу- 
ЧИТЬСЯ. 

В концепции фон Мизеса оставалась какая-то неувязка. 
Получалось, что вся теория вероятностей относится лишь к 
тем случаям, когда такой предел существует. А почему он 
существует, неизвестно и не обсуждается. Я не буду слишком 
далеко входить в критику этой концепции, просто отмечу, что 
вопрос, по существу, оставался запутанным и сложным. 

Несколько позднее для развития математической теории ве- 
роятностей был найден довольно простой подход. В некоторых 
общих очертаниях он был намечен у нас С.Н. Бернштейном“ 
еще в 1908 году. Приобрело известное признание и мое постро- 
ение аксиоматики. Оказалось, что для продвижений в матема- 
тической теории вероятностей можно вообще отбросить необ- 
ходимость объяснять, откуда понятие вероятности берется, а 
просто положить его в основу, формально описав его свойства. 
Благодаря такому подходу, у математиков, начиная с 30-х го- 
дов, интерес к объяснению вероятности, выяснению природы 
самого понятия, установлению причин, почему теория вероят- 
ностей применима к действительности, несколько ослабел. Но 
проблема оставалась, и, в своем основном большинстве, мате- 
матики все-таки “питались” концепцией фон Мизеса. Оказа- 


“Бернштейн Сергей Натанович (1880-1968) - математик, академик 
Петербургской Академии наук с 1916 г. - Ред. 
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лось, однако, что в строго математическом аспекте ее трудно 
поддерживать. Был разработан еще более эмпирический вари- 
ант, который не давал полного удовлетворения, но давал опи- 
сание тех случаев, когда, вероятности применимы. Говорилось, 
что теория вероятностей применяется в таких случаях, где в 
силу непосредственных наблюдений или в силу ожиданий (из 
законов симметрии, например) можно надеяться, что при мно- 
гократном повторении числа испытаний, частоты будут груп- 
пироваться достаточно тесно вокруг каких-либо констант. 

При этом происходило еще и удвоение трудностей. Как из- 
вестно, внутри самой теории вероятность оценивается. Есть 
теорема, Лапласа, которая позволяет оценить вероятность того, 
что сама, искомая вероятность будет лежать в таких-то преде- 
лах. Скажем, 

Р{тт-й> 8, 
где р - некоторая константа, может быть оценена, с помощью 
очень простой и разумной формулы по классической теореме 
Лапласа. Мы же сначала постулируем, что частоты долж- 
ны стремиться к вероятности, а потом, уже внутри теории 
вероятностей, снова доказываем это с помощью “закона, боль- 
ших чисел” и оцениваем скорость такого сближения. Прямого 
порочного круга здесь нет - математики обычно избегают по- 
ложений, где их можно прямо уличить. 

Оценка, р идет так: пусть нужно оценить Р{|т/п —р| < =}, 
т.е. по выбранному = > 0 нужно найти такое № (число серий 
по п испытаний в каждой серии), чтобы выполнялось условие 
|1т/п — Р| < Е. Это число серий № рассматривается большим, 
и оказывается, что доля тех серий, в которых это неравенство 
будет выполняться, в том наивном, первоначальном смысле, 
который и послужил поводом для введения понятия вероят- 
ности, будет близка к аналитическому выражению для этои 
вероятности, даваемому теоремой Лапласа. 

Значит, сначала мы постулируем, что вероятности близки 
к частотам при большом числе испытаний. А когда мы хотим 
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оценить отклонения, мы делаем так: сами такие серии осуще- 
ствляем по много раз. И, если числовое значение вероятности 
считается, например, равным 0,01, значит при 100000 серий 
будет около тысячи таких, где это неравенство окажется нару- 
шенным. Довольно грустная картина. Но пока не предложено 
ничего существенно лучшего. 

Таким образом, положение с какой-то реальной применимо- 
стью теории вероятностей остается сложным. Тот уровень, на 
котором я сегодня рассказываю, можно найти довольно подроб- 
но описанным в популярном трехтомном издании Академии 
Наук “Математика, ее содержание, методы и значение”?. Там, 
как можно более доступно, излагаются все эти контроверзы в 
возможностях применения теории вероятностей. Но, собствен- 
но говоря, положение с объяснением реальной применимости 
теории вероятностей, повторяю, остается довольно сложным. 

Елце более сложно положение с применимостью теории ин- 
формации. Все ею сейчас занимаются, все о ней говорят, но те 
применения, которые часто наиболее интересны, оказывают- 
ся не очень ясно обоснованными логически. Пока, что основные 
понятия теории информации строятся на базе теории вероятно- 
стей. Поэтому, когда вы имеете какой-то длинный текст не из 
нулей и единиц, а из русских букв, то можно говорить, сколь- 
ко (какое количество) в тексте такой длины информации, соб- 
ственно говоря, только в применении не к определенному тек- 
сту, а к тексту вообще, одному из текстов. 

Можно поставить такой`вопрос: сколько информации будет 
содержаться в ненаписанном еще детективном романе, если ис- 
ходить из общих предпосылок относительно привычек и харак- 
теров авторов таких романов и считать, что можно произво- 
дить такие романы в неограниченном количестве (что вполне 
осуществимо). Предоставим авторам возможность писать ро- 


Имеется в виду статья Колмогорова А.Н. “Теория вероятностей” 
(Математика, ее содержание, методы и значение. - М.: Изд-во АН СССР, | 
1956. - Т. 2. - С. 252-284). - Ред. 
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ман за романом и посмотрим, насколько часто будут встре- 
чаться те или иные ситуации, те или иные выражения, те или 
иные слова, насколько часто будет встречаться буква “А”, на- 
конец. Всё это при “массовом производстве” получит опреде- 
ленные вероятности. 

Но что значит “количество информации, содержащееся в 
данном, уже написанном, романе”? 

Ответ на этот вопрос пока, целиком строится на вероятност- 
ных основаниях. Возникают последовательно такие проблемы: 


1. Нельзя ли теорию информации (и понятие “количество 
информации”) освободить от вероятностей? 


2. Нельзя ли воспользоваться идеей, что случайность - это 
не поддающийся сокращению (описанию более коротким, 
чем уже привычный, способом) закон? 


Что касается первого, то та статья, которая мною уже 
написана и скоро появится в журнале “Проблемы передачи 
информации”, построена так: в соответствии с историческим 
ходом, там рассматриваются три подхода. 

Первый подход - чисто комбинаторный. Он не отвечает тем 
требованиям, которые я выдвигаю, но, все-таки, он интересен. 
Не всегда обращают внимание на то обстоятельство, что он 
дает больше, чем иногда, считают. 

Что же это за “комбинаторный подход”? Он очень простой. 
Количество информации, которое нужно, чтобы указать эле- 
мент в каком-то множестве, есть двоичный логарифм от числа 
таких элементов. Если мы имеем п элементов, то один элемент 
несет количество информации, равное |05. п. 

Пусть у нас имеется 1024 = 210 элементов. Если нумеро- 
вать элементы в двоичной системе счисления, то для номе- 
ров достаточно 10 цифр, чтобы числами г1,г2,....Г1о (г = 0 
или 1), содержащими по 10 цифр (10 = 105. 1024), занумеро- 
вать все элементы. Самих номеров будет ровно 210 — 1024. 
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Что касается количества информации, которое содержит- 
ся в указанном объекте относительно какого-нибудь другого 
объекта, то оно определяется так. Пусть берется объект Х и 
объект У’, и известно, какие здесь комбинации возможны. Ска- 
жем, представим себе, что есть объекты, обладающие какими- 
то “признаками”. Один из объектов принимает значения (при- 
знаки) 51, 12,..., Ти, а другой может принимать значения (при- 
знаки) у1, у2,...,Ут. При этом не все комбинации признаков 
возможны. Это самый простой случай подхода, к этим задачам. 
Например, можно по каким-нибудь диагностическим призна- 
кам определить заболевание: 


Таблица эта, как видите, заполнена не до конца. Двоичный 
логарифм числа возможных вариантов К признаков — это общее 
количество информации. А насколько оно может сократиться, 
когда, мы знаем определенное значение Х? 

Надо просто взять число г игреков, которые “соединимы 
с Х”, и вычислить разность [052 К — |о5ог. Кое-что мы уже 
узнаем. Сложность указания У’ несколько сократится, если мы 
знаем, каково было Х. И на таких, совсем наивных, основах 
кое-что можно уже сделать. 

Это, само по себе, любопытное явление: практические зада- 
чи, которые можно решить уже на такой простой основе, ино- 
гда излагают на более сложной, вероятностной основе. Приве- 
дем пример. 

Сушествует такая важная задача — сжатие информации, 
кодирование. У вас есть последовательность знаков а1,а2,..., 
а;,..., ап. Знаки — двоичные, т.е. ат = 0,1 (т=1,..., п). Вы 
‚хотите разбить эту последовательность на группы, и каждую 
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группу передавать комбинацией 61,65,...,6., более короткой. 
Пусть в длинной последовательности есть какая-то закономер- 
ность: например, последовательность образована из правиль- 
ных русских слов. Буквы можно записать, потратив на ка- 
ждую букву пять двоичных знаков (0,1) (если мы пользуемся 
32= 2? буквами). 

Закодированный начальный русский текст можно сжать. 
Одни буквы употребляются чаще, другие - реже. Те, что упо- 
требляются чаше, разумно обозначать более короткими комби- 
нациями - старый телеграфный код как раз этим пользуется. 

Спрашивается, насколько можно сжать длину текста при 
надлежащем кодировании? Понятно, что если этот текст уст- 
роен так, что знак 0 возникает с вероятностью р, а знак 1 - 
с вероятностью 4, то 4 = 1-р. Если текст длинный, то с 
вероятностью, близкой к единице, можно устроить его сжатие 
в таком отношении: 


—р105› р - 91052 4. 


Это всюду излагается, во всех курсах теории информации, 
как самый элементарный результат. Причем рассказывается в 
такой форме, что если текст образуется по этому вероятност- 
ному закону, то можно устроить кодирование, которое будет 
сжимать его, за исключением очень редких случаев. 

Но имеется и гораздо более сильный результат. Когда я его 
формулирую, мне говорят (и правильно говорят), что это ре- 
зультат не очень новый. По существу, его все понимают, но 
не выводят. Оказывается, дело обстоит так, что можно дать 
такой метод кодирования, который будет совершенно безоши- 
бочно, с достоверностью, давать такой результат: достаточной 
длины сообщение, в котором отношение числа единиц к обще- 
му числу знаков (суммарному числу единиц и нулей) есть р, 
будет заведомо сжиматься в отношении: 


—Р1052р- (1- р) 105>(1-Р). 
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Я рассказываю сейчас нарочно в таком упрощенном виде. 
Для всякого Е > 0 можно найти такой длины кодовые слова, 
что сжатие любой последовательности, в которой частота т/п 
отклоняется от р не более, чем на некоторую достаточно малую 
величину д > 0 (связанную с =), будет не меньше, чем 1/е. 

И делается это чрезвычайно просто. Надо просто кодиро- 
вать достаточно длинные слова, а сами эти слова (напомню, 
что слова состоят из нулей иединиц) распределить таким обра- 
зом: для слов длины з определить г/з (отношение числа, ну- 
лей к общей длине), вычислить соответствующую энтропию 
Н(г/з) и упорядочить все слова длины 3 в порядке возрастания 
этой энтропии. А затем, для того, чтобы можно было закодиро- 
ванные слова равной длины распознавать (где в сокращенном 
тексте кончается отрезок, соответствующий одному слову), на- 
до употреблять только слова, которые не могут служить одно 
продолжением другого (это - стандартная процедура) и упо- 
треблять для тех слов основного текста, у которых 


[формула не вставлена]. 


И вовсе не нужно, чтобы здесь действовала какая-то посто- 
янная вероятность. Если произвольный текст будет такой, что 
отношение числа нулей к общему числу нулей и единиц будет 
т/п, то сокращение получится примерно Н(т/п). 

Надо сказать, что в литературе по теории информации про- 
пагандируются такие методы кодирования, которые зависят от 
вероятностей, а на самом деле, существование вероятностей не 
нужно. И это очень Типично, что такая простая возможность 
не обращает на себя достаточного внимания. Так что, на самом 
деле, возможности развития теории информации даже несколь- 
ко больше без вероятностных предпосылок. Это такая вещь, 
которая скорее игнорируется, чем просто неизвестна. 

Тем не менее, все, что нам может быть интересно, таким 
путем вы не получите. Здесь та же проблема, о которой гово- 
рилось в самом начале — вопрос о количестве информации в 
уже написанном тексте все равно не решается. 
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Второй подход — вероятностный. Он наиболее популярный 
и наиболее развитый. 


А то, что я стал пропагандировать в последнее время, впер- 
вые в этой статье, в журнале “Проблемы передачи информа- 
ции”, появится. Это подход, который требует несколько новых 
понятий. Собственно говоря, в наивной форме, он, вероятно, но- 
сился в воздухе. Я не хочу сегодня рассказывать техническую 
сторону - очень скоро это будет напечатано - но, коротко, здесь 
предлагается следующее. 

Если вы имеете сообщение а = (а1, а2,...,ак,..., ап), состо- 
ящее из п нулей и единиц, то может случиться, что его мож- 
но при помощи какого-то простого алгоритма “развернуть” по 
какой-то программе. Тогда, для того, чтобы этот текст выни- 
сать, вам нужно только знать этот закон образования и знать 
длину сообщения п. Чем п больше, тем больше потребуется 
информации, а именно, потребуется примерно логарифм дво- 
ичный ОТ п, и еще какое-то ограниченное число знаков, чтобы 
выписать сам закон. Сложность написания такого текста дли- 
ны п будет не больше, чем |052 п. А если текст будет иметь 
длину 2", то для его написания потребуется только 1 |052 п. 
Такие закономерные последовательности имеют разную слож- 
ность, в зависимости от того, насколько велико число п. Впро- 
чем, это уже некоторый изыск. 

Возникает вопрос: а нельзя ли определить минимальную 
длину программы, позволяющую развернуть данную последо- 
вательность? Оказывается, что уже существует аппарат логи- 
ки, который позволяет такое определение дать. К сожалению, 
мы опять попадаем здесь под влияние теории фон Мизеса. Ми- 
нимальная длина определяется с точностью до константы, за- 
висящей от метода программирования. Существуют универ- 
сальные методы программирования, которые позволяют опи- 
сать любые законы образования последовательности и другие 
нужные здесь вещи. Отмечу, что сама эта универсальность 
алгоритмов, уже не в применении к последовательностям, а к 
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комбинаторным дискретным схемам, по-видимому, получила в 
последнее время достаточно исчерпывающее формальное изло- 
жение, которое имеется в докладах Я. М. Барздиня, молодого 
новосибирского математикаб. Он дает описание алгоритмов, 
понимаемых не в смысле переработки последовательности в 
последовательность, а, в смысле переработки в другие, посте- 
пенно разрастающиеся комбинаторные схемы. Что это значит, 
здесь, пожалуй, было бы трудно рассказать подробно. Я хочу 
только сказать, что для подобных рассуждений уже имеется 
твердая почва. Оказывается, что все же возможно определить 
минимальную сложность программы, которая позволит раз- 
вернуть данную последовательность. <... > 

Условное количество информации в Х относительно У - 
есть минимальная по длине программа, которая позволяет 
развернуть У, пользуясь Х. 

Но эта минимальная сложность определяется с точностью 
до какой-то константы. Если вы из универсальных методов 
программирования сначала выберете один, а затем возьмете 
еще один, то если разность результатов двух этих методов 
программирования и будет сколь угодно мала, но, как это ни 
странно; точность каждого метода, будет все-таки ограничен- 
ной. И тогда уже возникает новая идея о том, что количество 
информации, содержащееся в данном тексте, есть минималь- 
ная длина соответствующей программы. На, одной ленте запи- 
сывается программа, на другой ленте записывается Х. Эти обе 
ленты вставляются в универсальное вычислительное устрой- 
ство, а уже на выходной ленте мы видим У. Универсальное 
вычислительное устройство всегда, содержит вспомогательные 
ветви, на которых записывается, в частности, промежуточ- 
ная информация. Причем, такие ленточные вычислительные 
устройства, в смысле длительности работы, не очень эконом- 


6Я. М. Барздинь - математик, ученик А.Н. Колмогорова, ныне дирек- 
тор Института математики Академии наук Латвии, в то время учился в 
Новосибирском университете. - Ред. 
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ны (по ленте нужно долго “ползать”), но с точки зрения объ- 
ема программы, они не хуже других. Всё это понятия, которые 
сейчас обрели совершенно точный смысл. 

Так вот, на этой основе действительно можно построить 
теорию информации, пригодную для достаточно больших мас- 
сивов информации (тогда эти аддитивные константы не будут 
уже вредить в оценках). И это, по существу, вероятно, так. 
Более того, по существу, могут существовать только такие 
теории информации: или допускающие количественную оцен- 
ку (количество информации для еще не заданного объекта), 
или они должны зависеть от тех методов переработки, кото- 
рые положены в основу обработки информации. По-видимому, 
иначе не может быть. 

Можно думать, что, тем не менее, формальное определение 
имеет реальный коррелят не очень больших объемов. Можно 
универсальные методы программирования выбирать сколько- 
нибудь обозримым образом, брать среди тех, которые, можно 
думать, что теоретики продолжат. При этом различие в оценке 
информации будет в сотнях единиц, а не в десятках тысяч. 

Поэтому вопрос: «Сколько информации содержится в пе- 
чатном тексте “Войны и мира”’?» имеет все же объективный 
смысл. А вот установить, действительно, сколько же - это, ве- 
роятно, довольно трудно. Можно дать оценку сверху — здесь 
поможет статистика. Можно дать оценку снизу. Хотя в этом 
примере единственная, понятная мне, оценка снизу будет исхо- 
дить вовсе не из содержательности этого замечательного сочи- 
нения, а, как раз, из предположительной случайности форми- 
рования его в деталях и из возможности предположения, что, 
в силу не связанных простым законом факторов, в деталях ха- 
рактер изложения зависел, может быть, от погоды в те дни, 
когда писалась та или иная глава. 

Я думаю, что это единственный способ, потому что, соб- 
ственно говоря, идеализированная концепция всего произведе- 
ния была бы, скорее, такова, что из какого-то, сравнительно 
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небольшого, зерна необходимым образом развертываются все 
детали произведения. И опровергнуть это мы не умеем, так 
же как не умеем (несмотря на то, что пишут в популярных 
книжках) опровергнуть и гипотезу, что генетическая инфор- 
мация, определяющая какой-нибудь вид, хотя она и записана 
химическим образом, так уж велика. Вполне мыслимо, что эта, 
химическая запись и тот объем, который она объясняет, вовсе 
не аналогичны. 


Что касается оценки снизу количества информации, то это 
довольно Трудная задача. И с этим нужно, все-таки, считать- 
ся. На самом деле, очень часто встречаются случаи, когда яв- 
но избыточная информация передается в наших технических 
устройствах просто по неумению передать ее более сжатым 
образом. Мыслимо, что и Природа поступает так же, что объем 
информации, употребляемый Природой, также завышен. Но, 
во всяком случае, логически, подход, который предлагается 
сейчас, позволяет поставить вопрос о том, каков минималь- 
ный объем необходимой информации. А что касается мысли- 
мых возможностей, то они тут не только мыслимые. Можно 
показать (это будет также, в некоторой мере, развито в ста- 
тье, которую я все время упоминаю), что заведомо могут быть 
случаи, когда, скажем, решение какой-нибудь просто поста- 
вленной задачи может быть дано в виде сравнительно корот- 
кой формулы, записанной символическими знаками. Но досто- 
верно известно, что если вы при решении желаете избежать 
чрезвычайно большого объема вычислительной работы, то та- 
кое решение может быть записано только значительно более 
длинно. Математика, уже в состоянии такого рода теоремы до- 
казывать. И, собственно говоря, такого рода теоремы должны 
заменить очень популярную в литературе теорему Гёделя, со- 
всем неразрешимую. 

Если речь идет о том, чтобы найти какую-то последова- 
тельность знаков, такую, чтобы при помощи какого-то алго- 
ритма получить какой-то результат, то можно решить такую 
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задачу очень просто. Можно образовать поочередно все после- 
довательности и попробовать, что получится при указанном 
алгоритме, и, рано или поздно, появится решение. 

Мне говорили, что некоторое время тому назад многих уче- 
ных посещал один изобретатель и высказывал такое предложе- 
ние: нужно построить экран, поставить его в зале и зажигать 
электрические лампочки поочередно во всех возможных ком- 
бинациях. Посадить перед экраном ученых и ждать, пока по- 
явится идея какого-нибудь изобретения или открытия. В тот 
момент, когда такой намек появится, кто-нибудь из присут- 
ствующих попросит замедлить движение, чтобы посмотреть 
детали и записать. Таким образом, само собой появится реше- 
ние трудной проблемы. 

Так вот, математикам для доказательства существования 
практически неразрешимых проблем как раз такая машина, 
была бы полезна (по крайней мере, для доказательства отрица- 
тельных результатов). Оказывается, можно доказать, что бы- 
вают такие проблемы (если исходить из достаточно короткой 
начальной программы), которые не решаются иначе, как та- 
ким способом. Поэтому, если какое-нибудь решение все-таки 
найдено, то оно может оказаться практически совершенно не- 
заменимым. 

Если подсчитать количество опытов, которые проводила 
Природа, создавая живые организмы, то оно вовсе не так ве- 
лико, чтобы думать, что эти организмы могут быть построе- 
ны более рациональным способом. Это вполне мыслимая вещь. 
Так что, при таком подходе к понятию “информации” откры- 
вается масса проблем, очень трудных, но допускающих логи- 
чески точные постановки. 

А что касается теории вероятностей, то она-то является 
здесь совсем в неожиданном порядке, к сожалению. 

Я ограничусь только тем, что я уже не один раз рассказы- 
вал, но это, к сожалению, единственный простой пример. Име- 
ется последовательность нулей и единиц. Известно, что про- 


Стенограмма доклада А. Н. Колмогорова... 135 


грамма такой последовательности не может быть короче, чем 
суммарное число нулей и единиц, т.е. последовательность са- 
ма может служить программой (никак иначе записывать ее 
не будем). Тогда оказывается, что, во-первых, число единиц в 
ней будет приблизительно равно числу нулей. Это очень лег- 
ко доказать. Если бы числа нулей и единиц сильно разнились, 
то тогда можно было бы воспользоваться этим, чтобы пред- 
ставить все последовательности в меньшем числе и можно бы- 
ло бы коротенько записать это отношение, а потом указать 
номер нашей последовательности среди этих последовательно- 
стей. Более того, эти последовательности можно разбить на 
блоки, достаточно большие (длины $), подсчитать число еди- 
ниц в каждом блоке, подсчитать отклонение этого числа г от 
3/2 и посмотреть, каковы будут эти отклонения. Для такой 
последовательности, не допускающей сжатия, эти отклонения 
будут порядка 1/\/т, и они будут подчиняться закону Гаусса, 
который многим присутствующим, вероятно, известен. 


Так что, такие последовательности автоматически облада- 
ют целым рядом свойств, привычных для теории вероятно- 
стей. Можно думать, что, действительно, это и есть наиболее 
заслуживающий внимания подход к тому, чтобы объяснить, 
чем теория вероятностей занимается. 


Общая формулировка, тут вот какая. Теорией вероятностей 
занимаются вот в каких случаях, не обязательно самых про- 
стых. Теория вероятностей имеет дело не только с последо- 
вательностями нулей и единиц, в которых отношение числа 
нулей к числу единиц близко к 1 (т.е. примерно поровну нулей 
и единиц), а также с такими, где нулей, скажем, четверть, а 
единиц — три четверти. Но среди таких последовательностей 
— только с теми, где дальнейшее сжатие уже не допускается. 
Или с такими последовательностями, где есть какие-то зависи- 
мости — например, после единицы чаще следует снова единица 
(чем нуль), а после нуля - чаше снова нуль (чем единица). 
Последовательности, построенные по так называемому закону 


136 Стенограмма доклада А. Н. Колмогорова... 


цепей Маркова - и, кроме того, дальнейшее сжатие уже не до- 
пускается. Под эту формулу подходит, по-видимому, все, что 
мы в теории вероятностей делаем, с точки зрения ее примени- 
мости. 

Если считается, что последовательность нулей и единиц не- 
льзя сжать, то, разбивая информацию на блоки, мы получа- 
ем отклонения частот, подчиняющиеся закону Гаусса, и т.д. 
Если последовательность устроена, как цепь Маркова, но при 
этом информация не допускает дальнейшего сжатия, то до- 
казывается целый ряд свойств. Как метод исследования это, 
по-видимому, неплохо. Если вероятностный прогноз перестает 
действовать, то тем самым создается основание, чтобы найти 
здесь дополнительные вероятности. Это способ работы, кото- 
рый вполне продуктивен. 

С другой стороны, это показывает, что, вообще, среди очень 
сложно устроенных совокупностей, даже дискретных (я все 
время говорю о чисто комбинаторных, дискретных образова- 
ниях) существуют такие, которые образуются по простым за- 
конам, и их изучает теория вероятностей. Существуют такие, 
которые заведомо не образуются по этим законам, но все про- 
сто указывается. И этим занимается теория вероятностей. 

А в промежутке есть многие вещи, которые, по-видимому, 
математикам, математическим методам, вообще недоступны. 
В этом смысле это концепция довольно скромная. Она намеча- 
ет два полюса, и оставляет очень большое поле для сложно ор- 
ганизованных систем, изучение которых при помощи средств, 
ограниченных другой системой, которая может формулиро- 
вать гипотезы, может формулировать закономерности очень 
простые, уже ограничено. 

И вот, одним парадоксом из этой области я хочу закончить: 
Представьте себе, что есть очень высокоорганизованные су- 
щества, которые занимаются передачей информации. И пред- 
ставьте себе, что они в состоянии применять необычайно слож- 
ные методы кодирования. Есть такая теорема - здесь я изложу 
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ее в несколько вульгаризированном виде. Можно доказать сле- 
дующее: когда мы начнем воспринимать закодированную ими 
информацию (большой объем этой информации), то обнару- 
жим, в пределах доступных нам средств, чистую случайность 
по той простой причине, что если бы это не было чистой слу- 
чайностью, то более разумные существа давно бы эту инфор- 
мацию сжали в более короткую. 

Так что, мечтания относительно расшифровки предполо- 
жительных сообщений, несущихся мимо нас и разработанных 


какими-то разумными существами, —- довольно безнадежное 
занятие. 


Институт философии АН СССР 
23 апреля 1965 г. 
г. Москва 
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Ответы на вопросы, присланные 
А.Н. Колмогорову во время доклада “Понятие 
“информация” и основы теории вероятностей” 


® В какой мере Ваше учение о кристаллизации металлов 
(1938 г.) применимо к росту объема льда в море, 
океане? 


Действительно, я в 1938 году опубликовал небольшую рабо- 
ту, которая была откликом на работы исследователей, занима- 
ющихся кристаллизацией стали. Сам я в детали этих исследо- 
ваний не входил. По-видимому, для кристаллизации металла 
сама предпосылка, была, неверна. Но недавно было подтвержде- 
но что при кристаллизации гипса, скажем, где-нибудь в Кара- 
бугазе, мои формулы хорошо действуют. 

А как насчет льда в море, океане - я не знаю. 


Разрешите, все-таки, поговорить еще на, эту тему. Ведь ма- 
тематики работают по-разному. Иногда они называют свою 
работу просто теоретической. В частности, наша работа с 
В.И. Арнольдом, которая была премирована/, есть результат 
желания развить “в запас” чисто теоретические концепции. 
Может быть, она найдет какое-то применение, может быть, 
она уже сейчас интересна, но насколько такая работа может 
конкурировать с расчетными методами - неизвестно. Иногда, 
ученые работают над проблемами, действительно, вот сейчас, 
остро поставленными на практике. Но, к сожалению, чаще все- 
го кончается это тем, что: или проблема решается в пределах, 
нам уже известных, и получается такая консультация. Или же 
проблема просто не решается. Такое положение, что пробле- 
ма, возникшая из практики, решается методом, который был 


1В 1965 году А.Н. Колмогорову и В.И. Арнольду была присуждена Ле- 
нинская премия за работы по теории возмущений гамильтоновых систем. 
Арнольд Владимир Игоревич (р. 1937 г.) - математик, академик, ученик 
А.Н. Колмогорова. - Ред. 
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бы не известен и который удалось бы как раз тут и выдумать, 
бывает крайне редко. Простите, это такая маленькая добавка. 


Я поздравление ваше получил, и газеты без конца атакуют 
меня вопросами: а какое практическое применение это полу- 
чит? Математика, как прикладная наука, чаще бывает кон- 
сультацией. И нужна некоторая фантазия, чтобы вообразить, 
что только рождающийся метод, тут же может быть и приме- 
нен. 


® В каких единицах измеряется количество информа- 
ции? 


В битах. 


Что касается оценки сверху, то если вы имеете какую-то 
уверенность в том, что в вашем сообщении определенные де- 
Тали несущественны, то методы оценивания тут известны и 
разработаны. Тут переход к “индивидуальной” оценке инфор- 
мации ничему не мешает и не меняет ничего. 

Количество информации, которую могла бы содержать 
Большая Советская Энциклопедия, оценить сверху легко. Но, 
во-первых, там имеется около одного миллиона букв. Каждая 
буква может быть передана пятью битами (поскольку мы зна- 
ем, что в БСЭ русские слова). Техника позволяет оценить свер- 
ху это количество информации и показать, что оно не превос- 
ходит полутора миллионов бит. Что касается оценки сверху, 
то в случае БСЭ - это довольно простая задача, потому что 
там много стандартных фраз, которые часто повторяются и 
которые, следовательно, можно заменить более короткими. 


® А как дать оценку снизу? 


Это как раз самая загадочная вещь. Мы привыкли в по- 
пулярных работах всегда аргументировать этими оценками 
сверту, для того чтобы показать иррациональность, загадоч- 
ность таких явлений, как культура, творчество, жизнь... 
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Можно все-таки думать, что 50 больших томов в состоя- 
нии были бы зафиксировать (для нового воспроизведения) наи- 
более ценные стороны интеллектуального развития человече- 
ства. Давайте, поставим такой мысленный эксперимент. В са- 
мом деле, необходимо начать заново цивилизацию, исходя из 
известных данныг человеческой природы (которые содержат 
гораздо больше информации) плюс вся информация, позволя- 
ющая повторить культурное развитие человечества. Будет 
это 50, 100, 1000 или 10000 томов... Во всяком случае, я наде- 
юсь, что все же не те 20000000 томов, которые имеются сей- 
час в библиотеках. Во всяком случае, цифра, будет значительно 
меньшая, чем в оценке сверху. 

Так что, вероятно, на самом деле, и количество информа- 
ции, достаточное для того, чтобы определить такие специфиче- 
ские явления жизни, все же меньше, чем мы думаем. Возмож- 
но, что количество информации для описания всяких чудесных 
явлений гораздо меньше. Мы просто не имеем пока никаких 
серьезных средств для такой оценки. 

Что касается количества информации, содержащейся в на- 
писанном человеком тексте, то для этого, на основе некото- 
рых гипотез, можно дать кое-какие оценки. Но легче оценить 
“бессодержательную” информацию, имеющуюся в данном тек- 
сте, чем содержательную, ценную для нас. Скажем, количество 
информации в каком-нибудь географическом описании можно 
оценить, если предположить, что отдельные изображения на 
картах зависят от не связанных между собой факторов. 

Вообще, это вопрос очень интересный. 


® Вы говорили о трех подходах, но рассказали только о 
двух. 
Какой же третий подход? Или где об этом рассказы- 
вается? 


Три подхода такие: во-первых, чисто комбинаторный, во- 
вторых, вероятностный и третий - как раз, основанный на 
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возможности сжатия информации при помощи программиро- 
вания. Прочитать об этом можно будет в моей статье, которая 
скоро выйдет в первом номере журнала “Проблемы передачи 
информации”. 


® В каком смысле доказывается непротиворечивость ак- 
сиом теории вероятностей? 


Непротиворечивость аксиом теории вероятностей - это 
очень нетривиальная вещь. Непротиворечивость тем сложнее, 
чем более проста реализация теории. Можно говорить о реа- 
лизации одного возможного события и другого, невозможного. 
Теория групп, теория вероятностей не боятся упрека в проти- 
воречивости. 


® Как Вы относитесь к утверждению академика Берга 
о том, что информация - это такая же категория, как 
пространство и время? 


Такая же важная - с этим я бы согласился. Иначе - я 
вопроса, просто не понимаю. 


® Когда и где будут опубликованы Ваши исследования 
поэтического творчества? 


Я не обещаю нового “этапа” в сравнении с тем, что сделано 
до сих пор старой, узкой школой стиховедов (Б. Томашевского 
и других). Может быть, сейчас шум вокруг этого излишен. 

Хотя мы сделали довольно много нового. Оказалось, что в 
углублении этих исследований некоторую роль играет и мате- 
матическая статистика, и теория вероятностей, и теория ин- 
формации. Я, с некоторыми моими молодыми друзьями, пре- 
тендую (хотя, может быть, это и нескромно), что мы начинаем 
новый период исследований, сравнимый с работой стиховедов 
20-х годов. В соответствии с этим, кое-что уже напечатано в 
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“Вопросах языкознания” (несколько моих статей, затем моих с 
А. Кондратовым, моих с А. Прохоровым)?. Скоро появится, то- 
же в “Вопросах языкознания” , работа М.Л. ГаспароваЗ, близ- 
кая к нам. Потом планируются более обширные “сводные” пу- 
бликации. Но не преувеличивайте их значения с точки зрения 
“переворота, основ”. Это — уточнение тех хороших работ, кото- 
рые делались стиховедами. Боюсь, что тем, кому эти старые 
работы были не интересны, наши новые работы тоже покажут- 
ся неинтересными. Мне это кажется интересным. Я был недав- 
но в Варшаве на международной конференции, которая специ- 
ально была посвящена вопросам славянской метрики. Это мое 
занятие, еще гораздо более специальное. Я его люблю. 


ое Напишите, пожалуйста, на доске рекомендуемую ли- 
тературу. ` 


Я на доске не буду выписывать, я вам просто скажу. 

Я уже говорил, что в журнале “Проблемы передачи инфор- 
мации” выходит моя статья. Затем, в одном из номеров “Успе- 
хов математических наук” - в каком, еще не определилось. 


® Каково Ваше‘ отношение к работам по определению 
“ценности” информации и “смысла” информации? 


Я не знаю работ, в которых бы этим словам удалось при- 
дать смысл и содержательность. К сожалению, я не знаю и 
содержательного общего подтода к этим вопросам. 


АПЛОДИСМЕНТЫ 


2Имеются в виду статьи “К изучению ритмики Маяковского” (Вопро- 
сы языкознания. - 1963. — № 4. - С. 64-71); “Ритмика поэм Маяковского” 
(Вопросы языкознания. - 1962. - № 3. - С. 62-74 (совм. с А.М. Кондрато- 
вым)); “О дольнике современной русской поэзии: общая характеристика” 
(Вопросы языкознания. - 1963. - № 6. - С. 84-95 (совм. с А.В. Прохоро- 
вым)). - Ред. 

ЗА.Н. Колмогоров был оппонентом докторской диссертации М.Л. Гас- 
парова (ныне академик) по стиховедению. — Ред. 


